周鸿祎的“慢思考”先见,领先OpenAI两个月,大模型联盟显威力
作者:杨晓鹤
2024年,我们几乎每隔一段时间,就会被新发布的大模型“颠覆”,但真正实现能力跨越的大模型,还得是近期发布的OpenAI o1-preview。
这款又名草莓的大模型,不是测评中的你追我赶谁分略高,而是直接超越了人类IQ的平均值,来到了博士水平的120分。正如下图所示,o1-preview似乎已经越过了人类所谓的愚昧之巅。
o1-preview很聪明,但却有个体验性问题,那就是回答问题较慢,有美国教授测试个数学游戏,o1用了108秒来回答,很多人将大模型这一行为称之为“慢思考”。
对于“慢思考”,山姆·奥尔特曼在o1发布后的第二天时盛赞:“这是一个重要的新范式的开始” 。在推出高效的GPT-4o 后,OpenAI 推出更慢的模型,令包括xAI、Google等企业晕圈。
但实际上,360集团创始人周鸿祎早在7月底的ISC.AI 2024大会上就指出:大模型目前只有快思考没有慢思考的能力,我们要通过知识和工具,增强大模型的规划,打造大模型的慢思考能力。
首次提出打造大模型“慢思考”能力的周鸿祎,和今天的o1大模型理念不谋而合。
如今o1似乎证明了一件事,在大模型领域奉为圭臬的“Scaling Law(规模定律)”路线之外,又找到了大模型能力提升的新范式。
大模型的演化方向是什么,为什么“慢思考”会成为趋势?在国际和国内,OpenAI和360分别给出了问题的答案。
过去一年中,OpenAI公司管理十分动荡,尽管其仍旧不断推出新模型,但很多人并不太感冒。
沿着GPT-4o 路线,行业认为GPT-5 一定反应更快、多模态能力更强。而实现这一路径的最简单办法,可能就是继续堆积数据集和算力,沿着规模定律前进。
所以Anthropic为代表的大模型,模型参数越来越大,在编程和写作等领域也有一定效果,某种程度上实现了对4o的超越;Grok也开始堆积算力,马斯克豪言千亿投资超级GPU超级工厂,新模型超越OpenAI。
这么做意味着,大模型变成资源密集型产业,这显然不是大模型被创造的初衷。
这其中的关键,可能是传统 LLM还鲜有意识到,整个输出都通过 RLHF/RLAIF(人类反馈强化学习/ 人工智能反馈强化学习) 机制进行奖励/惩罚,所做的可以称为结果监督(你向模型提供强大的推理示例,然后使用这个机制)。这是Anthropic 旗下Claude 3.5 Sonnet所采取的路线,也是大部分模型都在采用的模式。
如果将推理分解为具体步骤时,“过程监督”就被提炼出来。OpenAI 押注未来的发展模式就是过程监督,代表大模型产品为o1。这也是o1的最大特性,在推理环节,将行业算力从 “Scaling Law(规模定律)”向“Inference law(推理定律)”环节转移。凭借self-play RL(自我博弈学习)和CoT(Chain-of-Thought,思维链),将推理环节效果提升到更好。
从下图可以看出,GPT系列更侧重在预训练(Pre-Training)环节发力,体验感则是更快回答简单问题;而草莓系列则侧重推理(Inference)环节,体验感则是慢速回答复杂问题;二者呈现出了不同的发展趋势。
谁更重要?谁是未来?周鸿祎认为这不是取舍关系,OpenAI 发展遵循的可能是“双系统理论Dual Process Theory”,核心在于两种系统并非独立而是协同运作。这句判断似乎是对OpenAI为何新造草莓系列大模型,更恰当的解释。
正如诺贝尔获得者、《思考,快与慢》一书作者丹尼尔卡尼曼曾说,人类大脑有两个系统,分别是系统1和系统2,前者利用直觉和本能,高效处理95%的问题,而系统2则是复杂场景的理解,能处理5%很难的问题。
OpenAI在GPT-4 后明显感知到,这系列为代表的1系统,进步难度变大。而草莓为代表的2系统,才刚刚开始。由此推测,其内部构建的更加智能的模型,或许就是模仿人类的大脑形式,用 GPT和o系列结合思维链的融合系统,前者用于“快思考”,后者实现“慢思考”。
从命名思路也可以佐证,OpenAI o1并不是OpenAI 的下一代产品,1代表奥特曼希望重置为1,是OpenAI在慢思考系列的实力展示。而4o则代表的GPT系列,还是快思考模式,未来GPT-5将是快思考与慢思考结合,GPT和O系列模型协作展现出来的新模型。
和OpenAI用两大系列模型结合的路线相似,360借助更早发布的CoE(Collaboration-of-Experts,专家协同)架构,实现了思维链+多系统协同,集合了数量更多的大模型和专家模型,实现“快思考”和“慢思考”。
多系统协同中的大模型并非是360一家提供,而是聚集了国内主流大模型厂商,包括百度、火山引擎、腾讯、阿里巴巴、华为、智谱AI、月之暗面、MiniMax、百川智能、零一万物、商汤科技、科大讯飞、好未来、Deepseek、面壁智能在内的最强“复仇者联盟”。
标志事件是8月1日,周鸿祎在“ISC.AI 2024”上,宣布与国内16家大模型厂商达成合作,共同组成“CoE大模型联盟”。
在提到多模型协作实现慢思考这一命题,周鸿祎在短视频内容中这样举例解释:
“如果让一个真人,不假思索的回答问题,要求他写作文不打草稿,或者复杂的数学题,没有一个黑板写满演算步骤,实际上他也做不到的。”所以,周鸿祎很早思考多模型发展的思路:
“我们很早就在行业里提出了这样一个(方案),利用智能体框架,结合大模型,打造慢思考模式的技术路线。现在看来,完全被OpenAI给验证了。”智能体就是那块黑板,多模型协作过程就是演算步骤,周鸿祎提出了自己的慢思考模式。
这一思考下,大模型联盟逐渐发展成为「多模型协作」模式。将不同能力的大模型整合成360AI搜索等产品,对外输出智能服务,让多个大模型协作互补而非竞争发展。
周鸿祎率先意识到下一代大模型的发展,并不是只有“大力出奇迹”这一条路,与今天OpenAI的思路不谋而合,草莓大模型验证了周鸿祎的思考。
大模型发展到今天,一道“9.11和9.9谁大”,简单的比数字大小的问题,难住了主流的大部分模型,普遍回答错误。
在360AI搜索上问此问题,依靠多模型做检索纠错,可以正确回答出这一问题,而这一问题,4o目前还是回答错误。
对于大部分大模型来说,这个问题可以通过微调直接修正,但真正处理这类问题,一种是推出o1这种推理能力非常强的模型,一种是利用大模型的协作模式,比其他单个大模型厉害,也能解决这个问题。
这套复杂的慢思考,在很多场景中效果都更好,比如用户的Prompt写的不清晰,CoE架构能够通过意图识别模型,更加理解用户的实际需求。用户问的问题太复杂,通过任务分解路由模型,让各大模型、小模型之间协同配合。很多单一大模型难以回答的问题,也能被360混合大模型正确回答。
所以周鸿祎的“慢思考”,不是把16家厂商摆出来,让用户觉得哪个好用就用哪个,而是用新的架构组合成了互补协作的体系,让16家大模型变为乘法关系,发挥出更大威力。
这正是目前的AI搜索混战中,360AI搜索得以快速脱颖而出的原因之一。
好用才是用户喜欢用的根本,360AI搜索的月独立用户数(UV)已经超过8000万,是国内第一个达到这个量级的AI产品,将一众国产AI ChatBot甩在身后。据Similarweb 数据显示,2024年8月份,360AI搜索用户访问量已超 2 亿,达 Perplexity AI 三倍以上,蝉联全球最大的AI原生搜索引擎,并且势能不减,还以113%的月增速,成为全球增速最快的主要AI搜索引擎。
或许很多读者还是会产生疑问,是否只要引入更多模型,AI生成的回答质量就会更好呢?实际上,可能并不一样,多个大模型组合在一起生成更好答案的关键,在于是否具有一套混合大模型智能调度系统,这是360的独家秘密武器。
大模型多模协作,实际上也早有共识。但大家走的路线并不一致。
Minimax最早在国内上线了MoE(Mixture-of-Experts)架构的稀疏混合专家模型,此后腾讯混元等各家大模型都开始积极跟进。国外也是MoE架构居多,MoE成为国际主流多模架构。
但MoE模型的专家之间存在竞争关系,选择单一或者少数模型作答,模型本身的天花板以及错误率问题,都会影响最后的结果。这就难以避免幻觉问题,也难以实现“慢思考”。
相比之下,360推出了自己的『草莓架构』,不同于MoE,也即前文提到的CoE。
近两个月前发布的CoE(Collaboration-of-Experts,专家协同)架构中,就构建了一个通过思维链和“多系统协同”的方式实现“快思考”和“慢思考”的混合大模型调度系统,能让多个模型分工协作、并行工作,执行多步推理。
CoE模型推理过程 图源:《Collaboration of Experts: Achieving 80% Top-1 Accuracy on ImageNet with 100M FLOPs》
除了具有“慢思考”能力,CoE架构相较于MoE架构还拥有更精细的分工、更好的鲁棒性、更高的效率和可解释性和更强的泛化能力,可以在加快推理速度的同时, 降低API接口和Token的使用成本。
综合来看,360首创的CoE架构则集合了数量更多的大模型和专家模型,是通过思维链和“多系统协同”的方式实现“快思考”和“慢思考”。它的模型分工协作的方式,使得多家大模型发挥出各自的优点,并经过step by step 思考和纠正,最终总结给出更优质答案。
这意味着,CoE架构比OpenAI o1更早应用了思维链和反思决策模式,并且更进一步地应用在了360的AI搜索、AI浏览器和AI助手上,打造了AI原生搜索引擎的全球第一之外,还构建了国内首个大模型竞技场平台,效果确实突出。
国内此前也有平台宣布接入集齐了大模型领域的全部实力玩家,也就是说接入了几家独角兽企业的大模型产品,但实际上只是让产品接了入几家大模型的API,用户只能凭感觉选用一家的产品——和直接访问其网站或App没有区别。
而360集合百度、火山引擎、腾讯、阿里巴巴、华为、智谱AI、月之暗面等16家国内主流大模型厂商,是要组成战斗力升级版的复仇者联盟。
目前,所有这些厂商的54款大模型产品,都是接入了CoE架构,并基于该架构实现了1+1>2的协同效果,未来更是将全量接入100多个。
从产品层面看, 360 CoE 架构可以被分成两个部分:其中,语料积累与算法技术,主要依靠的是360智脑在内的16家国产大模型的接入,类似分工不同的特种兵;而360则充当指挥官的角色,通过意图识别模型,来实现对于用户意图更加精准的理解;通过任务分解和调度模型,实现了对于众多专家模型网络(100+LLM)、千亿规模知识中枢和200+第三方工具的智能调度,进而实现比MoE更高的灵活性和效率。
如今,360已经在CoE路线上持续突飞猛进,近期又推出国内首个“大模型竞技场”( bot.360.com),支持调用54款大模型进行“同台竞技”,模型竞技场也很有意思,上线了“组队较量”、“匿名比拼”、“随机对战”等功能,成为更加公平的模型竞技平台。
尤其是“组队较量”功能,使得用户可以自由选定3款大模型,和任意一款或两款大模型较量。
在每场竞技中,用户可以一次性添加任意2-3个对比模型,也可以随时移除或替换为其他模型。模拟o1的自我博弈和强化学习过程。
竞技场锻炼了不同模型在不同问题下的最佳组合,用户直观感受是360混合大模型越来越厉害。事实也是如此,距第三方测试,该360混合大模型在翻译、写作等12项指标的测试中取得了80.49分的综合成绩,超越了GPT-4o的69.22分。
当然,360大模型联盟并不是单纯地聚在一起“跑分”,站在当下看未来,具有三层深意。
1、帮助众多大模型找到应许之地,不再困于流量;
很多大模型缺乏落地场景以及用户,尤其是大模型创业公司。而360的AI搜索、浏览器、安全卫士等至少拥有10亿用户的入口,众多大模型借此找到了应许之地。“入口的流量,我觉得一步一步来,我们先开放两大核心入口,一个是桌面,一个是浏览器,未来还会开放360搜索、360智能硬件。”周鸿祎在联盟成立之初,就表示会逐步开放更多场景。
2、数据飞轮帮助大模型进化;
当下大模型的发展,囿于更好的数据集而难以进步,而o1合成数据集带来的效果明显,对行业是个刺激。对于国内头部大模型厂商来讲,360AI搜索就是基于CoE架构,能够给大模型厂商持续提供用户、数据和优化方向。这在合作模式上就会更深入,其他家大模型公司不会担心被工具化。
3、“以竞促练”提升行业水准
基于CoE架构的模型竞技场,大模型竞技场给国产大模型提供了一个“以竞促练”的平台,塑造了“比学赶帮超”的氛围。对于各家大模型来说,不再是分散竞争,保密发展的情况,而是每天都可以跟进竞技场的结果,调整自己的发展。
现阶段,在国际,从大模型成果、LLM路线选择以及落地工程化等维度,OpenAI向通过GPT-4o、o1等向业界证明,它仍在领导着行业进步。
于此同时在国内,360一手抓产品,借助CoE架构落地360AI搜索、360AI浏览器等行业或全球领先的产品;一手建平台,成立大模型联盟,打造AI助手,建立国内首个大模型竞技平台,推出多模型协作等等,为国产大模型的持续进化提供了平台和方向。
时至今日,在AI大模型这条举足轻重的赛道上,虽然还有各种困难横亘在国内厂商面前,但是我们已经拿到了和国际水平几乎平齐的身位,拥有了一较高下的实力。
AGI之路虽然,行则将至。未来AGI的黄冠上,必将有属于我们中国大模型厂商的明珠!
草莓难救被“月抛”的AI对话产品?
库克:iPhone 16梦想版,AI时代的割肾神机